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摘要 : [目的 /意义 ]FAIR 原则 是 保障 科学 数据 标识 、 淹 源 、 共 享 及 重用 的 数 
据 管理 原则 ， 通 过 评估 我 国 高 校 图 书馆 数据 开放 平台 FAIR 原则 的 应 用 情况 ， 对 
于 改善 平台 数据 质量 具有 重要 意义 。[ 方 法 /过 程 ] 本 研究 通过 网 络 调研 ， 基 于 现 有 
FAIR 原则 框架 ， 构 建 适用 于 我 国 高 校 图 书馆 数据 开放 平台 的 FAIR 评估 框架 ， 
并 从 可 发 现 性 、 可 访问 性 、 互 操作 性 、 可 重用 性 四 个 维度 对 我 国 的 高 校 图 书馆 数 
据 开 放 平 台 进行 评估 分 析 。[ 结 果 / 结 论 ] 基 于 以 上 研究 ， 本 研究 从 明确 平台 自身 定 
位 、 提 高 数据 质量 、 互 通 平 台数 据 、 规 范 数据 标准 、 转 化 数据 效能 等 方面 提出 高 
校 图 书馆 数据 开放 平台 建设 改进 建议 。 
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1 引言 Introduction 


总 书记 在 中 共 中 央 政 治 局 第 十 一 次 集体 学 习 时 强调 :“ 发 展 新 质 生 产 
力 是 推动 高 质量 发 展 的 内 在 要 求 和 重要 着 力 点 ”“ 新 质 生 产 力 已 经 在 实践 中 形成 
并 展示 出 对 高 质量 发 展 的 强劲 推动 力 、 文 撑 力 ”2024 年 3 月 14 日， 政府 工作 
报告 将 “大 力 推 进 现代 化 产业 体系 建设 ， 加 快 发 展 新 质 生 产 力 ” 作 为 今年 政府 工 
作 十 大 任务 之 首 , 并 提出 既 要 发 展 新 质 生产 力 , 还 要 深入 推进 数字 经 济 创新 发 展 


(11, 


数据 要 素 是 我 国 第 五 大 生产 要 素 外 ,作为 数字 经 济 时 代 的 基础 性 和 战略 性 资 
源 ， 是 新 时 代 科 技 创 新 的 关键 要 素 。 激 活 数据 要 素 价值 ， 推 动 生产 力 跃 迁 升级 ， 
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高 校 图 书馆 作为 信息 中 心 和 数据 信息 资源 中 心 , 在 新 时 代 中 肩负 着 教学 科研 ， 
人 才 培 养 等 重要 任务 , 其 数据 开放 是 贯彻 落实 我 国 数据 开放 共享 战略 的 重要 环节 
向 ， 如 何 规范 化 管理 开放 平台 并 推动 数据 要 素 向 发 展 新 质 生 产 力 流动 是 当前 高 校 
图 书馆 进行 数据 开放 的 核心 任务 。 


2 文献 综述 Literature Review 


2. 


p 


高 校 图 书馆 数据 开放 平台 建设 质量 与 要 求 分 析 


高 校 的 使 命 在 于 人 才 培 养 和 知识 创新 , 是 实施 创新 驱动 发 展 战略 、 建 设 创新 
型 国家 的 重要 力量 外。 高 校 图 书馆 作为 重要 的 教 辅 部 门 ， 具 有 教育 和 信息 服务 两 
大 主要 职能 ， 提 供 学 科 建 设 、 人 才 培 养 、 科 学 研究 等 服务 加， 以 协助 高 校 实 现 服 
务 国家 战略 、 支 持 民族 复兴 的 历史 使 命中 。 其 中 ， 科 研 数据 管理 成 为 高 校 图 书馆 
实现 自身 价值 的 重要 途径 外 。 国 内 多 所 一 流 高 校 先后 开展 了 科研 数据 管理 服务 工 
作 ， 推 进 相关 管理 措施 和 政策 的 制定 外。 随 着 开放 数据 运动 的 深入 以 及 科研 数据 
管理 需求 的 提升 , 高 校 图 书馆 需要 进一步 重视 数据 开放 平台 的 建设 质量 ,以 标准 
化 、 科 学 化 的 方式 存储 数据 ， 从 而 提高 科研 数据 的 质量 、 扩 大 科研 数据 的 共享 范 
围 外 。 然 而 就 实践 情况 来 看 ， 数 据 开放 平台 仍 存在 着 诸多 问题 ， 如 数据 难以 质量 
保障 、 用 户 访问 困难 009、 共 享 水 平 较 低 、 数 据 安全 保障 体系 薄弱 0 等 ， 因 而 ， 
数据 开放 平台 建设 质量 的 评估 研究 引起 学 者 的 关注 , 数据 的 开放 共享 需要 科学 的 
数据 管理 原则 予以 指导 。 


2.2 FAIR 原则 


FAIR 原则 是 “代表 学 术 界 、 工 业界 、 资 助 机 构 和 学 术 出 版 商 的 各 种 利益 相 
关 者 聚集 在 一 起 ， 设 计 并 共同 批准 的 一 套 简 明 且 可 衡量 的 原则 ”525， 是 可 发 现 
(Findable)、 可 访问 (Accessible)、 可 互 操 作 (Interoperable)、 可 重用 (Reusable) 四 个 
维度 的 首 字 母 组 合 ， 用 以 保障 科学 数据 标识 、 漳 源 、 共 享 及 重用 。 


2.2.1 FAIR 原则 定义 相关 研究 


自 FAIR 原则 提出 以 来 ， 各 国政 府 、 国 际 组 织 以 及 学 术 团 体 等 就 展开 了 对 其 
概念 内 涵 和 具体 指向 的 一 系列 的 研究 ， 不 断 细 化 对 该 原则 的 理解 和 应 用 要 点 。 
2018 年 11 A, 美国 地 球 物理 联合 会 (AGU) 数据 项 目 总 监 Shelly Stall 做 了 “ 赋 
能 FAIR 数据 : 地球、 太空 与 环境 科学 ”的 报告 13， 对 FAIR 原则 的 内 容 、 参 与 
机 构 、 利 益 相关 者 及 其 责任 等 相关 内 容 进行 曾 述 。2020 ^E, Annika Jacobsen 基 
于 不 同 领域 对 FAIR 原则 的 理解 歧义 ， 提 出 要 简明 扼要 地 界定 FAIR 原则 并 为 一 
些 创新 领域 留 下 余地 04。 


2.2.2 FAIR 化 的 相关 研究 


随 着 FAR 原则 的 研究 逐步 深入 ， 越 来 越 多 学 科 领 域 的 组 织 、 机 构 注意 到 
FAIR 原则 ， 并 将 其 广泛 应 用 于 各 大 学 科 领 域 的 实践 活动 中 。2018 年 11 月 7 日 ， 
在 第 三 届 欧 洲 开放 科学 云 (EOSC ) 峰 会 上 ,FAIR Data Expert Group 发 布 了 Turning 
FAIR Data into Reality05 和 FAIR Data Action Plan019 两 份 研究 报告 , 进一步 推进 全 
球 数 据 FAIR 化 ; 2019 年 10 月 ， 研 究 数据 联盟 RDA) 全 体会 议 组 织 了 “勾画 
未 来 的 数据 蓝图 : FAIR 语义 与 FAIR FEE” 研讨 会 , 针对 存储 库 与 FAIR 融合 、 
语义 FAR (6. FAIR 产品 设计 等 问题 展开 讨论 9; 政府 间 组 织 ELIXIR 开展 了 “ 农 
作物 大 规模 基因 分 型 数据 集 ” 的 FAIR 化 〈FAIR-ification ) 研究 工作 ， 以 确保 分 
布 式 机 构 存 储 库 中 的 表 型 数据 的 互 操作 连接 ， 为 作物 育种 提供 数据 文 撑 08。 


2.3 FAIR 原则 评估 研究 


2.3.1 FAIR 评估 框架 概述 


FAIR 原则 被 广泛 应 用 到 各 大 学 科 领 域 的 实践 活动 后 ， 出 现 了 对 于 FAIR 原 
则 的 歧义 和 操作 上 的 不 一 致 ， 背 离 了 FAIR 原则 推动 共享 的 初衷 。 同 时 ，FAIR 
原则 实施 的 效果 如 何 、 有 竺 改进 的 问题 在 哪里 ， 也 需要 进行 调查 。 因 而 ，FAIR 
原则 应 用 评估 应 运 而 生 。Peter Wittenburg 等 09 基 于 Wikinson 构建 的 指标 体系 评 
估 了 欧洲 研究 基础 设施 战略 论坛 CESFRD 项 目的 FAIR 化 程度 ， 同 时 解释 了 进 


fT FAIR 化 评估 的 注意 事项 。 德 国学 者 Lars Quakulinski 甚至 建立 了 一 个 适用 于 
不 同 领域 的 ， 同 时 又 低 门槛 和 定义 明确 的 人 为 错误 研究 框架 ,， 旨 在 促进 在 各 领域 
相关 者 之 间 有 效 内 容 传播 P01。 

但 是 ， 在 实际 活动 中 应 用 FAIR 原则 存在 着 评估 指标 不 统一 ， 评 估 手 段 困难 
等 挑战 ， 为 此 为 了 有 效 评 估 数 据 资源 的 FAIR 实施 情况 ， 为 开放 数据 管理 提供 明 
确 的 指导 和 标准 ， 相 关 组 织 展开 了 FAIR 评估 框架 的 研究 工作 ， 其 中 就 包括 评估 
指标 、 评 估 工 具 与 评估 方法 的 建设 与 应 用 。 

目前 国际 上 通用 的 FAIR 原则 评估 框架 根据 适用 对 象 分 可 以 分 为 两 类 ， 第 一 

是 适用 于 多 种 不 同学 科 领 域 的 通用 框架 ， 比 如 Wilkinson 等 于 2018 年 7 月 最 
sips Pt rh alee ee area MERDA ERAN 
Metric Group (GFMG) 的 FAIR 38 H T bte 28 PU; 第 二 类 是 针对 某 一 学 科 领 域 数据 
的 专用 评估 框架 , 通常 是 结合 第 一 类 框架 以 及 调研 对 象 的 数据 特点 设计 的 ， 如 李 
春秋 等 根据 国外 已 有 的 FAIR 应 用 评估 框架 ,结合 我 国医 学 科学 数据 开放 平台 的 
特征 ， 设 计 出 面 对 医 学 科学 数据 的 FAIR 应 用 评估 指标 体系 ， 用 于 评估 我 国 11 
个 样本 平台 的 FAIR 原则 应 用 情况 名， 爱 达 荷 大 学 的 学 者 Alowairdhi 利用 FAIR 
原则 设计 出 针对 Earth Science Data Management and Stewardship 的 可 实施 框架 
用 以 来 改善 地 球 科学 数字 资源 的 数据 管理 和 管理 B31。 文 化 领域 ，Lukas Koster 为 
实现 不 同 LAM (libraries, Archives, Museums) 机 构 馆 藏 数据 的 可 访问 和 可 重用 ， 
解决 不 同 结构 馆藏 数据 重用 、 许 可 限制 等 问题 , 结合 LAM 机 构 馆 藏 数据 的 特征 ， 
提出 了 一 系列 针对 LAM 的 FAIR 原则 评估 指标 2。 

根据 评估 工作 的 可 操作 性 ，FAIR 原则 评估 框架 可 以 分 为 多 级 框架 和 指南 性 
框架 。 前 者 是 进一步 将 评估 指标 细 化 到 不 同 层级 ,方便 对 评估 结果 分 级 ， 如 荷兰 
数据 存档 与 网 络 服务 (Dutch Data Archiving and Networked Services, DANS)251、 欧 
H Horizon 2020 及 澳大利亚 研究 数据 共享 组 织 (Australian Research Data 
Commons, ARDC) 的 FAIR 原则 评估 指标 体系 P9、RDA FAIR 评估 工作 组 2020 年 
上 半年 推出 的 FAIR 数据 成 熟 度 模型 (FAIR Data Maturity Model, FDMM); 后 
者 有 详细 的 指南 ， 便 于 实际 评估 实施 ， 比 如 澳大利亚 联邦 科学 与 工业 研究 组 织 
(Commonwealth Scientific and Industrial Research Organisation, CSIRO) 的 5 星 级 数 
据 评 估 工 具 R71 以 及 FAIRSFAIR 工作 组 的 评估 框架 231。 


2.3.2 FAIR 原则 评估 流程 


FAIR 原则 的 评估 流程 可 根据 实际 情况 大 致 分 为 两 类 ， 一 类 是 人 工 评估 ， 另 
一 种 则 是 利用 各 种 FAIR 评估 软件 进行 的 自动 评估 。 关 于 人 工 评估 ，Annika 
Jacobsen 等 描述 了 一 个 通用 的 分 步 FAIRification 工作 流程 9， 适 用 于 任何 类 型 
的 数据 ， 在 “Bring Your Own Data” (BYOD) 研讨 会 上 得 以 应 用 ， 分 为 三 阶段 
六 步骤 : CL) 前 FAIR 化 阶段 ， 确 定 目标 即 确认 评估 对 象 ， 分 析 《〈 元 ) 数据 ; (2) 
FAIR 化 阶段 ， 定 义 《〈 元 ) 数据 的 语义 模型 、 使 元 ) 数据 可 链接 、 存 放 FAIR 
数据 ; (3) 后 FAIR 化 阶段 ， 评 估 FAIR 原则 应 用 情况 。 自 动 评估 则 是 针对 大 部 
分 机 器 可 读数 据 的 处 理 过 程 ， 包 括 数 据 收集 、 数 据 准 备 、 数 据 分 析 、 预 测 建 模 和 
模拟 等 步骤 ， 将 FAIR 原则 融入 到 计算 工作 流 中 ， 促 进 了 对 数据 质量 的 评估 ， 并 
产生 了 新 的 数据 ， 提 高 了 数据 的 标准 化 和 可 重用 B9。 

CESSDA 《欧洲 社会 科学 数据 档案 委员 会 ) 参照 欧盟 的 FAIR 实施 框架 进行 
了 组 织 科学 数据 的 自我 评估 B11, 由 此 发 现在 FAIR 文化 和 生态 建设 上 的 不 足 ;在 环 
境 科学 领域 ，WDCC (世界 气候 数据 中 心 ) 采 取 一 系列 FAIR 原则 的 应 用 措施 B32， 
由 在 为 更 好 地 对 接地 球 观测 、 气 象 、 海 洋 学 和 环境 科学 的 数据 中 心 。 


3 我 国 高 校 图 书馆 数据 开放 平台 FAIR 应 用 评估 指标 
体系 的 构建 ”Construction of FAIR application 
evaluation index system of academic libraries’ open 


data repositories in China 


3.1 框 染 对 比分 析 


本 研究 采用 人 工 评估 的 评估 流程 , 首先 选取 国内 高 校 图 书馆 数据 开放 平台 作 
AMR, 分析 平台 内 (元 ) 数据 ， 经 过 综合 评估 ， 优 先 选 择 了 适用 学 科 范 围 较 广 
的 评估 框架 (GO FAIR) 来 作为 基底 ， 然 后 再 从 指标 设计 的 角度 出 发 ， 选 择 便于 
评估 指标 重要 程度 以 及 分 析 FAIR 化 程度 的 评估 框架 CRDA, ARDC), 同时 为 考 


虑 实际 评估 工作 开展 的 顺利 进行 ， 选 择 可 实施 性 更 强 的 评估 框架 CFAIRSFAIR) 
作为 补充 。 至 于 指标 体系 的 专业 适用 性 , 因为 高 校 图 书馆 数据 共享 平台 类 型 多 样 、 
数据 庞杂 ， 但 是 并 不 在 特定 领域 深耕 ， 所 以 结合 了 Lukas Koster 针对 LAM (Al 
书馆 、 艺 术 馆 、 博 物 馆 ) 特点 的 FAR 原则 应 用 研究 员 ， 构 建 出 适用 于 评估 我 国 
高 校 图 书馆 数据 开放 平台 的 评估 框架 体系 。 

AKER 4 种 框架 的 比较 分 析 、 选 取 原 因 以 及 缺点 如 表 3-1 所 示 。 总 体 而 
言 , 4 个 评估 指标 框架 各 有 具 特 色 , 也 都 有 缺点 ,本 文通 过 不 断 地 进行 调整 和 改进 ， 
择优 去 劣 ， 从 而 选择 出 适用 于 评估 高 校 图 书馆 数据 开放 平台 的 评估 指标 。 

表 3-1 FAIR 评估 框架 对 比 


mi 


Table 3-1FAIR evaluation framework comparison 


名 称 评估 重点 优点 缺点 
GO FAIR | 通过 半自动 化 过 程 进行 评估 ， 强 调 | 明确 指标 适用 原则 、 评 估 原 因 、 评 | 评估 内 容 宽泛 ， 模 
数字 对 象 的 机 器 可 读 性 古方 法 和 适用 范围 糊 性 强 ， 评 估 结 果 
难 确定 
RDA 重点 评估 元 数据 描述 性 、 标 识 符 采 | 划分 指标 优先 级 ， 将 指标 分 为 必要 | 指标 设置 较 多 ， 评 
情况 指标 、 重 要 指标 和 一 般 指标 ， 揭 示 | “” 估 流程 较为 繁琐 
评估 指标 的 重要 程度 


FAIRsFAIR | 划分 指标 优先 级 ， 将 指标 分 为 必要 | 为 每 条 细则 制定 一 至 多 个 评估 指 | 未 给 出 具体 的 评估 


指标 、 重 要 指标 和 一 般 指标 ， 揭 示 | 标 ， 并 设置 分 层 模型 进行 测试 ， 评 | 方法， 指标 测试 有 
评估 指标 的 重要 程度 十 可 实施 性 强 一 定 难度 

ARDC 采取 赋 分 制 形式 问卷 评估 ， 对 各 项 | 指标 简洁 明了 ， 以 问卷 形式 呈现 ， | 可 重用 维度 只 有 1 
指标 的 FAIR 化 程度 进行 严格 划分 容易 知道 数据 FAIR 化 程度 个 指标 


3.2 评估 指标 确定 


确定 指标 分 两 步 走 , 首先 参考 上 述 四 个 评估 框架 从 原 框架 中 抽取 适用 于 评估 
高 校 图 书馆 数据 开放 平台 的 评估 指标 , 形成 评估 框架 原型 ; 然后 再 结合 图 书馆 数 
据 开放 平台 的 数据 特征 以 及 Lukas Koster 针对 LAM 的 FAIR 原则 评估 框架 ， 对 
评估 框架 原型 的 各 项 指标 进行 微调 ， 优 化 。 

评估 框架 原型 具体 内 容 如 表 3-2 所 示 。 


表 3-2 高 校 图 书馆 数据 开放 平台 评估 框架 原型 


Table 3-2 University library open data repositories evaluation framework 


prototype 


一 级 指标 二 级 指标 指标 借鉴 情况 
F1. 1 为 数据 分 配 全 局 唯一 标识 符 GO FAIR, RDA, FAIRsFAIR, ARDC 
F1. 2 为 数据 分 配 持久 标识 符 GO FAIR, RDA, FAIRsFAIR、 ARDC 
可 发 现 性 wr ad pA, 
TRAT F2 元 数据 包括 描述 性 核心 元 素 RDA, FAIRsFAIR 
(Findable) 
LS un NS MOT RDA, FAIRSFAIR 
F3 元 数据 包括 它 所 描述 的 数据 的 标识 符 
RDA, FAIRsFAIR 
F4 (70) 数据 在 可 搜索 资源 中 注册 或 索引 RDA, FAIRsFAIR 
ust Al 可 通过 标准 化 通信 协议 访问 数据 RDA, FAIRsFAIR, GO FAIR 
可 访问 性 


(Accessible) 


A2 元 数据 包含 数据 的 访问 级 别 和 访问 条 件 


GO FAIR, ARDC, FAIRsFAIR 


A3 即使 数据 不 再 可 用 ， 也 可 以 访问 元 数据 


GO FAIR. RDA 


可 互 操作 性 
(Interoperable) 


TL 元 数据 使 用 形式 化 知识 表示 语言 表示 


I2 元 数据 包括 数据 与 其 相关 实体 之 间 的 链接 


RDA, ARDC, FAIRsFAIR 


I3 数据 以 什么 《文件 ) 格式 提供 ? 


ARDC 


可 重用 性 


(Reusable) 


R1 元 数据 包括 可 以 重复 使 用 数据 的 许可 证 信 


Us 


RDA, ARDC, FAIRsFAIR 


R2 (70) 数据 与 详细 出 处 相关 联 


GO FAIR, FAIRsFAIR, ARDC 


对 上 述 指标 进行 取舍 的 考虑 如 下 : 在 可 发 现 性 维度 下 ， 大 部 分 指标 均 适用 ， 
但 考虑 到 数据 标识 符 持久 性 以 及 唯一 性 评估 的 手段 及 指标 的 不 同 ， 故 将 FI: "2 
据 被 分 配 一 个 全 局 唯一 和 持久 的 标识 符 ” 拆 分 成 两 个 小 维度 (Fl1.1、F1.2)， 以 


便于 实际 工作 的 开展 与 后 续 结 果 分 析 ; 在 可 访问 性 维度 中 的 各 项 指标 均 适用 于 实 


际 评 佑 ， 仪 将 GO FAIR 中 的 Al 下 的 两 个 小 维度 维度 拆 分 成 两 个 维度 ( 现 AT 


A2), 原因 是 元 数据 协议 与 元 数据 的 访问 限 


判 两 个 维度 在 图 书馆 数据 开放 和 平台 的 


评估 的 手段 及 指标 体现 是 不 同 ; 在 可 互 操作 性 维度 ， 只 剔除 了 12: "Coco 数据 使 


用 遵循 FAIR Jiu B] jl 
汇 表 即 元 数据 描 


[ 表 ” 这 一 指标 ， 原 因 是 在 大 多 数 数据 集 ，FAIR 原则 词 
述 标准 ， 与 F2 指标 重合 ， 无 需 重新 评估 ;在 可 重用 性 维度 没有 


需要 修改 或 剔除 的 指标 。 同 时 还 剔除 了 部 分 不 具备 评估 条 件 或 不 适用 于 调查 高 校 


图 书馆 数据 开放 平台 的 指标 ,如 删除 了 RDA 评介 
(RDA-A1-02M) 和 “数据 可 以 手动 访问 ”(RDA-A1-02D) 等 由 于 实际 情况 难以 评估 


的 指标 以 及 图 


框架 中 “元 数据 可 以 手动 访问 ” 


书馆 数据 开放 平台 中 不 存在 的 指标 如 有 关 社 区 标准 的 四 条 指标 


(RDA-R1.3). 


最 终 得 到 针对 高 校 图 书馆 数据 开放 平台 的 FAIR 评估 框架 ， 如 表 3-3 所 示 。 


X 3-3 高 校 图 书馆 数据 开放 平台 评估 框 染 


Table 3-3 Evaluation framework of university library open data repositories 


一 级 指标 二 级 指标 三 级 指标 
Fl. 1 标识 符 的 唯一 性 
FL 标识 符 Fl. 2 标识 符 的 永久 性 
ZENE i hues Shp 
可 发 现 人 F1. 3 元 数据 包含 其 所 描述 数据 集 的 标识 符 
(Findable) 
F2. 1 元 数据 标准 规范 
F2 元 数据 TU 
F2. 2 元 数据 丰富 度 
F3 搜索 引擎 发 现 性 F3. 1 在 平台 中 的 登记 注册 情况 
Al 访问 条 款 A1. 1 元) 数据 访问 条 款 
ee xao: A2.1 (元 ) 数 据 访 问 协议 
可 访问 性 WI) Py 
AQ. 2 GO) 数据 标 访问 协议 的 标准 性 
(Accessible) - 
A3 访问 权限 A3. 1 用 户 审核 机 利 
A4 (元 ) 数据 寿命 方案 M. 1 GO) 数据 存储 机 制 
11 数据 引用 I1. 1 合 规 的 数据 引用 方式 
可 互 操作 性 
(Interoperable) 
I2. 1 关联 到 相关 数据 集 
I2 数据 关联 
I2. 2 关联 到 相关 数据 (外 部 数据 、 相 关 论 文 ) 
13 数据 文件 格式 13. 1 使 用 通用 的 机 器 可 读 的 格式 表示 
R1. 1 数据 集 使 用 许可 声 昌 
RI 数据 重用 许可 
可 重用 性 R1.2 说 明 数 据 集 的 限制 原因 
(Reusable) R2. 1 数据 溯源 信息 


R2 数据 济源 


R2. 2 济源 信息 格式 的 标准 性 


该 框架 以 FAIR 原则 的 四 大 维度 延展 ， 在 可 发 现 、 可 访问 、 可 互 操 作 、 可 重 
用 4 个 一 级 指标 下 归纳 了 12 个 二 级 指标 ， 划 分 了 19 个 三 级 指标 。 其 中 ， 从 实 
际 需 求 出 发 ,二 级 指标 根据 图 书馆 数据 内 容 以 及 类 型 ， 从 评估 框架 原型 中 的 细 分 


指标 中 进行 归纳 , 与 原 指标 框架 的 顺序 存在 细微 差异 。 而 部 分 三 级 指标 是 在 不 影 
响 原 有 含义 的 基础 上 ， 对 指标 进行 微调 或 修改 ,使 其 指标 内 容 更 容易 理解 ， 更 适 


用 于 评估 高 校区 


书馆 数据 开放 平台 。 


在 可 发 现 性 维度 中 , 考虑 到 图 书馆 数据 开放 平台 有 的 数据 集 尽 管 规范 不 标准 ， 
但 其 元 数据 也 十 分 丰富 ， 故 不 能 将 其 视 为 一 个 指标 来 评估 ， 因 而 归纳 出 Fl 标识 


TR. F2 元 数据 、F3 搜索 引擎 可 发 现 性 三 个 二 级 指标 。 将 评估 框架 原型 中 的 F2 
拆 分 成 F2 中 的 两 个 三 级 指标 (F2.1、F2.2), ; LAM 框架 中 涉及 到 的 FAIRsharing 
和 Re3data 是 国际 权威 的 数据 仓储 目录 , 在 其 中 注册 并 通过 认证 的 数据 平台 和 存 
储 库 高 度 开 放 且 更 加 标准 化 ， 故 将 原 F4:“( 元 ) 数据 在 可 搜索 资源 中 注册 或 索 
引 ” 这 一 指标 的 评估 细则 定 为 有 无 在 FAIRsharing 和 Re3data 注册 。 

可 访问 性 维度 ， 归 纳 出 Al 访问 条 款 、A2 访问 协议 、A3 访问 权限 、A4( 元 ) 
数据 寿命 方案 四 个 二 级 指标 。 首 先 在 原 A1:“ 可 通过 标准 化 通信 协议 访问 数据 ” 
细 分 出 Al1“ 访 问 条 款 ” 这 一 指标 ， 以 区 别 访问 数据 集 与 使 用 数据 集 ， 另 外 与 数 
据 相 关 的 所 有 人 员 都 参与 到 数据 集 的 管理 中 去 , 可 建立 一 个 咨询 小 组 , 用 于 沟通 
使 用 要 求 以 及 用 例 概述 等 ,这 也 是 下 文 多 个 平台 用 户 组 机 制 的 由 来 , 故 设置 A3.1: 
“用 户 审 核 机 制 ” 这 一 指标 。 荷兰 数字 遗产 和 文化 知识 中 心 DEN 以 荷兰 语 “DE 
BASIS” 发 布 了 一 套 文化 遗产 数字 化 的 最 低 要 求 B1， 包 括 权 利 管理 、 可 查找 性 、 
创建 、 展 示 、 数 据 可 持续 性 /保存 、 描 述 ， 其 中 便 提 及 了 数字 馆藏 数据 的 数据 可 
持续 性 /长 期 保存 性 的 重要 程度 , 为 此 将 原 A3 细 化 到 A4.1:“( 元 ) 数 据 存储 机 制 ”， 
以 便 检查 平台 数据 的 长 期 保存 性 。 

在 可 互 操作 性 维度 ， 归 纳 出 11 数据 引用 、 了 2 数据 关联 、I3 数据 文件 格式 。 
将 原 指标 I1:“ 元 数据 使 用 形式 化 知识 表示 语言 表示 ”修改 为 现 指 标 II: "E 
引用 ”以 便于 下 面 了 13:“ 数 据 文件 格式 ”重合 ， 指 标 B:“ 数 据 文件 格式 ” 重 
点 评估 数据 资源 的 格式 是 否 机 器 可 读 , 本 文 把 数据 文件 格式 分 成 了 上 传 格式 和 下 
载 格式 , 其 原因 在 于 由 于 尽管 有 的 数据 开放 平台 规定 了 上 传 的 数据 文件 格式 , 但 
用 户 能 下 载 到 的 数据 文件 格式 与 其 声明 的 数据 文件 格式 并 不 一 致 。 

在 可 重用 性 维度 ， 归 纳 出 RI 数据 重用 许可 、R2 数据 溯源 两 个 二 级 指标 。 为 
了 避免 在 每 种 情况 下 反复 请 求 重用 许可 的 必要 性 , 应 立即 明确 允许 对 对 象 和 元 数 
据 执 行 哪些 操作 , 这 一 工作 可 通过 为 数据 集 提供 可 重用 许可 声明 ， 比 较 常用 的 许 
可 声明 有 the Creative Commons (CC) license, 最 常用 的 版 本 就 是 CC-BY 和 CC-0, 
故 将 评估 细则 定 为 CC-BY、CC-0 等 国际 通用 标准 许可 ; 同时 对 R1、R2 指标 进 
行 划分 ， 便 于 评估 与 分 析 。 

除去 上 述 各 维度 的 指标 调整 过 程 ， 另 外 还 对 各 框架 的 部 分 指标 进行 了 取舍 ， 
比如 RDA 评估 框架 中 将 对 象 分 成 数据 与 元 数据 ， 但 LAM 机 构 的 数据 对 象 分 为 


对 象 〈 如 书籍 、 期 刊 、 工 件 、 视 频 、 数 据 集 等 )、 元 数据 《例如 标题 、 创 建 者 、 
标识 符 、 日 期 等 ) 和 元 数据 记录 (有 关 特 定数 据 库 中 对 象 的 元 数据 元 素 的 正文 ) 
三 种 ， 因 此 本 文 的 调研 对 象 类 型 应 该 为 元 数据 记录 。LAM 框架 分 别 对 三 种 对 象 
设计 了 不 同 的 适用 指标 ， 根 据 适 用 指标 内 容 ， 将 元 数据 与 数据 两 者 进行 了 合并 ， 
如 “元 数据 可 通过 免费 协议 访问 ” (RDA-A1.1-01M)、“ 数 据 可 通过 免费 协议 访问 ” 
(RDA-A1.1-01D) 两 条 指标 都 是 针对 评估 对 象 采用 的 访问 协议 及 其 性 质 进行 评估 ， 
核心 评估 内 容 一 致 ， 将 其 合 为 A2.2:“( 元 ) 数 据 标 访问 协议 的 标准 性 ”。 


4 我 国 高 校 图 书馆 数据 开放 平台 FAIR 应 用 现状 分 析 
Analysis on the current situation of FAIR application 
in open data repositories of academic libraries in 


China 


4.1 样本 选择 


国内 高 校 图 书馆 数据 开放 平台 的 实践 情况 还 不 够 成 熟 , 且 由 于 建设 经 验 的 缺 
> 当前 国内 高 校 图 书馆 很 少 能 够 独立 开展 相对 完整 的 开放 数据 服务 , 更 多 的 是 
高 校 图 书馆 或 对 应 学 科 科 研 部 门 独立 或 合作 开展 服务 [00。 因 此 本 研究 认为 在 调研 
国内 高 校 图 书馆 开放 数据 平台 时 视角 可 以 适当 放宽 , 高 校内 部 机 构 与 高 校 图 书馆 
开展 的 开放 数据 平台 均 可 以 纳入 调研 范围 。 因 而 本 研究 所 调研 的 高 校 图 书馆 数据 
开放 平台 主要 分 为 两 种 类 别 : 一 类 是 高 校 图 书馆 与 校内 其 他 机 构 增 强 联系 紧密 合 
fg; 一 类 是 由 高 校 中 茶 个 机 构 或 部 门 独立 开展 。 
确定 选择 条 件 后 ， 本 研究 在 bing 搜索 引擎 、 各 大 高 校 官 方 网 站 上 进行 检索 ， 
最 终 检 索 到 符合 条 件 的 我 国 高 校 数 据 开放 平台 共 10 个 ， 但 是 由 于 访问 权限 的 限 
制 ， 只 有 四 个 平台 可 以 访问 。 另外 在 选取 调研 对 象 的 期 间 ， 除 了 上 述 由 高 校本 号 
开发 的 开放 数据 平台 ,还 有 部 分 高 校 选择 提供 第 三 方 的 开放 数据 平台 ， 如 中 国 传 
媒 大 学 、 清 华 大 学 、 浙 江 财经 大 学 等 高 校 ， 均 在 本 校 图 书馆 提供 CnOpenData F 
放 数 据 平 台 的 入 口 ， 因 此 ， 本 文 将 CnOpenData 也 列 为 调研 对 象 。 故 而 本 文 最 终 


的 调研 对 象 共 五 个 , 分 别 为 北京 大 学 开放 研究 数据 平台 、 浙 江 大 学 开放 数据 平台 、 
复旦 大 学 社会 科学 数据 平台 和 华东 师范 大 学 人 文 社 科大 数据 平台 〈 以 下 简称 为 
“北京 大 学 ^“ 浙 江 大 学 和 “复旦 大 学 “华东 师范 大 学 ?) 以 及 CnOpenData。 


4.2 可 发 现 性 


数据 的 可 发 现 性 是 影响 数据 发 挥 其 价值 的 重要 因素 ， 数 据 只 有 被 用 户 发 现 ， 
才 有 被 使 用 、 分析、 组 织 的 可 能 。 支撑 数 据 可 发 现 性 的 三 个 重要 指标 特征 包括 唯 
一 永久 性 标识 符 、 元 数据 丰富 程度 以 及 搜索 引擎 可 发 现 性 。 可 发 现 性 的 各 指标 评 
估 结 果 如 表 4-1 所 示 。 


表 4-1 可 发 现 性 维度 各 指标 评估 结果 


Table 4-1Evaluation results of finable dimension indicators 


平台 北京 大 学 BAKS 华东 师范 大 学 浙江 大 学 CnOpenData 
标识 符 
是 否 声明 标识 符 4 J J x 4 
永久 性 标识 符 DOI HDL HDL aN 否 
本 地 标识 符 x x x x J 
£ : 永久 性 Web | KATE Web | KATE Web 标 B E 
标识 符 类 型 as ae 无 标识 符 本 地 标识 符 
标识 符 标识 符 识 符 
元 数据 
元 数据 标准 声明 4 J J x x 
DDI, 
ie, us zo DDI, 
遵循 的 元 数据 标准 DataCite DD = - 
DataCite 等 
Ak 
等 
国际 通用 
egeta 国际 通用 元 | “ ”| 国际 通用 元 数 | 未 声明 元 数 | 未 声明 元 数据 
元 数据 标准 类 型 WO 元 数据 标 We e en 
数据 标 T. 据 标准 据 标 ; 标准 


用 国际 元 | 复 用 国际 
元 数据 格式 丰富 度 赋值 | 数据 标准 格 | 元 
式 VERE TK 


国际 元 数 | 自 定 义 非 标 | 仅 有 标题 和 非 
据 标准 格式 准 格式 标准 简单 描述 


Re3data 注册 情况 J J J 
FAIRsharing 注册 情况 x x x x x 
本 地 索引 J 4 4 4 4 


4.2.1 标识 符 


标识 符 PID 是 标识 数据 身份 的 一 系列 字符 ， 通 过 检索 协议 将 数据 与 资源 进 
行 关联 , 标识 符 的 永久 性 是 确保 图 书馆 数据 被 发 现 的 关键 , 适用 于 图 书馆 数据 的 
PID 有 Handle (handle.net), DOI (doi.org), URN-NBN 和 URL 等 ， 但 是 URL 这 种 
类 型 的 内 部 标识 符 只 推荐 使 用 与 基于 特定 系统 或 域 的 Web E, 但 它 不 是 全 局 和 
持久 标识 符 。 

国内 外 各 高 校 平台 调查 结果 如 表 所 示 ，5 个 样本 平台 有 4 个 平台 为 数据 集 声 
明了 标识 符 ， 其 中 有 3 个 平台 使 用 永久 性 标识 符 ， 而 CnOpenData 虽然 声明 采用 
了 标识 符 , 但 并 未 明确 指出 其 标识 符 类 型 与 名 称 , 而 浙江 大 学 并 未 声明 其 采用 了 
标识 符 ， 只 在 本 地 提供 数据 集 的 URL。 


4.2.2 元 数据 


在 通过 元 数据 描述 各 类 资源 的 过 程 中 , 基于 不 同 资源 的 不 同 特点 , 按照 整合 
和 共享 的 要 求 ， 需 要 制定 通用 的 元 数据 标准 ， 以 科学 、 准 确 、 全 面 的 描述 资源 的 
属性 和 特征 , 目前 国际 通用 的 元 数据 标准 有 都 柏林 核心 (DC)、DCAT、 Schema.org、 
CKAN 等 , 国内 外 各 数据 开放 平台 调查 结果 如 表 所 示 , 有 多 个 平台 通过 复 用 元 数 
据 标准 构建 元 数据 方案 ,元 数据 较 丰 富 。 国 内 平台 遵循 的 标准 较 国 外 平台 的 要 缺 
乏 规 范 性 和 标准 性 ， 北 京 大 学 和 复旦 大 学 都 是 基于 哈佛 大 学 开源 软件 Dataverse 
搭建 测试 数据 平台 ， 故 其 规范 性 也 较 好 ， 因 而 元 数据 格式 较为 校准 ， 有 着 多 种 元 
数据 标准 形式 ， 如 DDI、DataCite、Dublin Core 等 ， 另 外 元 数据 丰富 度 也 较为 完 
$; 浙江 大 学 和 CnOpenData 虽 提 供 元 数据 格式 但 未 声明 遵循 的 元 数据 标准 ， 不 
过 都 有 较 完整 且 丰 富 元 数据 元 素 , 但 是 CnOpenData 仅 展 示 数 据 集 元 数据 的 各 字 
段 及 其 内 容 ， 而 浙江 大 学 除了 数据 集 的 元 数据 字段 内 容 ， 还 有 元 数据 学 科 分 类 、 
负责 人 、 发 布 日 期 等 相关 信息 。 


— 


42.3 搜索 引擎 


re3data 是 为 了 应 对 在 数据 共享 增长 背景 下 , 越 来 越 多 的 不 同类 型 的 科研 数据 
知识 库 (RDR) 的 诞生 而 导致 RDR 的 异 构 性 而 制定 的 ， 其 中 的 re3 分 别 代表 


registry. research. repositories 这 三 个 单词 ， 其 全 称 是 Registry of Research Data 
Repositories， 即 科学 数据 仓储 注册 系统 ， 其 旨 在 对 所 有 领域 的 科学 数据 仓储 基于 
注册 机 制 进行 索引 化 和 结构 化 描述 , 采用 信息 图 标 来 描述 每 个 科学 数据 仓储 的 基 
本 特征 ， 以 便 使 用 者 能 快速 定位 要 寻找 的 RDR。 同时 FAIRsharing 也 是 国际 权威 
的 数据 仓储 目录 ， 它 提供 了 关于 数据 标准 、 数 据 库 、 存 储 库 和 政策 的 信息 ， 以 及 
与 其 他 支持 FAIR 的 资源 互 操作 的 搜索 和 可 视 化 工具 和 服务 ， 有 利于 数据 使 用 
者 发 现 、 选 择 和 使 用 符合 规范 标准 的 数据 库 、 存 储 库 ， 并 使 数据 上 传 者 使 的 资源 
更 容易 被 发 现 、 更 广泛 地 采用 。 在 Re3data 和 FAIRsharing 注册 并 通过 认证 的 数 
据 平台 和 存储 库 高 度 开放 且 更 加 标准 化 。 

5 个 样本 平台 中 有 3 个 平台 仅 在 Re3data 注册 , 有 2 个 平台 既 没 有 在 Re3data 
注册 ， 也 没有 在 FAIRing 注册 。5 个 样本 平台 均 有 在 本 地 标 引 数据 集 并 提供 多 样 
化 的 检索 方式 ， 比 如 北京 大 学 ， 复 旦 大 学 ， 和 华东 师范 大 学 提供 高 级 检索 ;; 
CnOpenDataData 虽 不 提供 高 级 检索 ， 但 是 可 以 具体 定位 到 数据 集 某 个 具体 部 分 
的 数据 且 收 录 数 据 较 完整 ; 浙江 大 学 在 这 方面 则 有 所 欠缺 , 仅 支持 对 检索 结果 按 
学 科 、 关 键 词 、 发 布 日 期 和 负责 人 分 类 进行 筛选 数据 。 


4.3 可 访问 性 


当 用 户 需 要 获取 数据 时 ,他们 会 考虑 如 何 访问 这 些 数据 。 为 了 保证 数据 的 可 
访问 性 ， 需 要 在 遵守 访问 协议 的 前 提 下 ， 确 保 用 户 能 够 轻松 地 获取 【〈 元 ) 数据 。 
值得 注意 的 是 , 可 访问 性 并 不 意味 着 所 有 数据 都 必须 公开 , 而 是 根据 数据 的 性 质 
确定 公开 的 内 容 和 时 间 。 可 访问 性 的 各 指标 评估 结果 如 表 4-2 所 示 。 


表 4-2 可 访问 性 维度 各 指标 评估 结果 


Table 4-2 Evaluation results of accessible dimension indicators 


平台 北京 大 学 fi HUS 华东 师范 大 学 | 浙江 大 学 CnOpenData 
访问 条 款 


有 声明 用 户 | 有 声明 用 有 声明 用 户 条 | 有 声明 用 户 | 无 声明 用 户 条 


pa 2K 明明 确 性 
URE RORIS PER 户 条 款 款 条 款 款 
不 规范 、 简 不 规范 、 简 
ni NAW SG. Um E H pa 
— 1 A mae | To RE e gae | Te PURUS 
的 用 户 条 款 的 用 户 条 款 款 


1 AR 
tp dye 
条 款 夫人 


访问 协议 
访问 协议 声明 J J J 3 7 
访问 协议 类 型 HTTP、API HTTP HTTP HTTP HTTP 
在 线 访问 与 获取 y J J J 7 
访问 权限 
平台 审核 机 制 声明 y q J J y 
用 户 注册 后 | 用 户 注册 后 部 | 用 户 注册 后 | 用 户 注册 后 部 
平台 审核 机 制 内 容 | 部 分 开放 数 |... | 分 开放 数据 需 | 部 分 开放 数 | 分 开放 数据 需 
放 数 据 需 l ' 
d b: L 据 需 申请 申请 
由 十 
用 户 审 核 机 制 声明 Ni 4 J 4 x 
(元 ) 数据 存储 方式 
存储 平台 DataVerse DataVerse 自身 平台 自身 平台 


4.3.1 访问 条 款 


5 个 样本 平台 中 有 4 个 平台 声明 了 用 户 访问 条 款 ， 其 中 北京 大 学 和 复旦 大 学 
均 是 在 平台 首页 处 有 声明 用 户 使 用 条 款 声 明 ， 虽 然 均 是 Dataverse 搭建 的 测试 数 
据 平 台 , 但 是 北京 大 学 在 用 户 条 款 中 的 声明 较为 详细 且 全 面 , 复旦 大 学 仅 对 用 户 
隐私 信息 和 服务 条 款 等 方面 做 了 声明 ,对 数据 集 使 用 方面 的 声明 并 未 提 及 ; 华东 
师范 大 学 只 在 具体 数据 集 元 数据 部 分 处 有 用 户 条 款 声 明 , 且 用 户 条 球 内 容 均 是 关 
于 数据 集 的 使 用 与 下 载 方面 内 容 ; 浙江 大 学 虽 在 具体 数据 集 元 数据 部 分 中 有 条 球 
的 页 面 ， 但 是 只 有 “访问 权限 ”和 “版 权 及 所 有 权 声 明 ” 两 个 部 分 ， 且 内 容 较为 
简略 ; CnOpenData 无 论 在 平台 首页 还 是 具体 数据 集中 都 无 法 找到 用 户 条 球 界 面 。 


4.3.2 访问 协议 


5 个 样本 平台 均 支持 HTTP. 协议 访问 和 数据 下 载 , 从 这 个 方面 来 说 ,FAIR 所 
要 求 的 标准 化 访问 协议 环境 已 经 得 到 了 满足 , 但 除 此 之 外 ,北京 大 学 还 提供 API 
接口 。 


4.3.3 访问 权限 


访问 权限 既 包括 平台 对 用 户 的 审核 , 也 包括 上 传 者 对 用 户 的 审核 , 也 就 是 用 
户 审核 机 制 。 


首先 是 平台 对 用 户 的 审核 。 北 京 大 学 、 复 旦 大 学 、 华 东 师 范 大 学 、 浙 江 大 学 
对 于 完全 开放 的 数据 集 , 未 注册 登录 的 用 户 都 可 以 访问 并 下 载 , 但 是 对 于 有 权限 
要 求 的 数据 集 ， 则 需要 注册 并 登录 才 可 访问 ， 甚 至 还 需 进 行 申 请 访问 之 后 才 可 以 
进行 访问 并 下 载 ; 在 CnOpenData 平台 ， 用 户 虽 然 无 需 注 册 便 可 访问 并 浏览 数据 
集 及 其 内 容 , 但 是 需 注 册 并 登陆 才 可 下 载 数 据 集 ， 同 时 部 分 数据 需要 开通 会 员 才 
可 访问 并 下 载 。 

在 上 传 者 对 用 户 的 审核 方面 ，CnOpenData 作为 一 个 开放 数据 整合 平台 ， 并 
不 提供 用 户 上 传 数 据 服 务 ， 故 不 做 讨论 。 其 余 4 个 平台 均 提供 用 户 审核 机 制 ， 各 
个 平台 间 提 供 不 同 权限 层次 的 数据 共享 审核 机 制 ， 比 如 北京 大 学 将 用 户 分 为 3 
个 非 平行 的 基本 权限 组 , 数据 集 和 数据 空间 中 的 权限 角色 都 有 细 分 , 较为 详细 全 
面 ; 华东 师范 大 学 中 有 四 种 权限 ,分 为 成 员 、 编 辑 、 管 理 员 和 访问 未 发 布 的 数据 
集 ; 浙江 大 学 平台 提供 默认 角色 组 以 及 权限 , 但 同时 也 支持 自 定义 角色 组 和 权限 
分 配 操作 ， 更 加 入 性 化 。 


jÈ: 


43.4 (T) 数据 存储 方式 


随 着 时 间 的 推移 ， 数 据 集 往往 会 消失 或 失去 利用 价值 ， 即 使 数据 不 可 再 用 ， 
元 数据 也 可 以 访问 ， 因 此 元 数据 应 保存 到 可 靠 、 稳 定 且 专业 的 存储 平台 中 ,并 且 
提供 元 数据 保存 声明 。 由 于 CnOpenData 并 不 提供 用 户 上 传 数据 服务 ， 故 不 做 讨 
ie. 其 余 4 个 样本 平台 均 有 声明 数据 保管 措施 并 承诺 提供 稳定 存储 ,存储 策略 各 
有 差异 。 北 京 大 学 和 复旦 大 学 基于 DataVerse 存储 库 软 件 保 存 ， 而 华东 师范 大 学 
和 浙江 均 基 于 自身 研发 平台 保存 。 


lip 


44 可 互 操作 性 


可 操作 性 指 让 机 器 在 访问 、 关 联 、 集 成 不 同 来 源 的 数据 时 ， 能 够 更 加 准确 、 
顺畅 地 理解 ， 从 而 为 用 户 方便 获取 数据 黄 定 基础 。 此 外 ， 可 操作 性 还 强调 人 类 和 
机 器 对 数据 的 交互 与 理解 ， 以 便 更 好 地 实现 数据 的 利用 和 重用 。 可 互 操作 性 的 各 
指标 评估 结果 如 表 4-3 所 示 。 


表 4-3 可 互 操 作 性 维度 各 指标 评估 结果 


Table 4-3 Evaluation results of interoperable dimension indicators 


平台 北京 大 学 | SEKS | 华东 师范 大 学 | 浙江 大 学 | ChOpendata 
数据 引用 
提供 且 格 式 | 提供 但 格 | 提供 但 格式 单 | 提供 但 格式 
ee | ere 不 提供 
丰富 式 单 一 一 单一 
数据 关联 
是 否 有 数据 关联 J J J J J 
提供 但 格式 | 提供 但 格 | 提供 且 格 式 丰 | 提供 但 格式 | 提供 且 格 式 丰 
epe 供 但 格式 | 提供 但 格 | 提供 格式 所 | 提供 但 格式 | 提供 且 格 
单一 式 单 一 富 单一 富 
文件 格式 


非 机 器 可 读 | 数据 文件 
机 器 可 读 的 数 | 数据 文件 格 
上 传 数据 文件 的 数据 文件 ^ \ 能 上 传 文件 
传 数据 文件 格式 的 数据 文件 | 格式 不 做 据 文件 格式 “| ERRER 不 能 上 传 文件 


采用 结构 “| 采用 结构 采用 结 松 
mz | ATAN | 采用 结构 化 、 | PT | 采用 结构 化 , 开 
"E 化 、 开 放 标 | 化 、 开 放 标 S di 化 、 开放 标 | 人 “ 
下 载 数据 文件 格式 淮 、 机 器 可 | WES 机 器 可 开放 标准 、 机 x. dEHLAE 放 标 准 、 非 机 器 
读 的 格式 "en 器 可 读 的 格式 TEREA 可 读 的 格式 


4.4.1 数据 引用 


数据 引用 由 在 建立 数据 与 数据 之 间 以 及 数据 与 文献 之 间 的 关联 , 进而 促进 数 
据 的 广泛 交互 。 首先 5 个 平台 中 有 4 个 平台 提供 了 明确 的 数据 引用 方式 , 其 中 部 
分 平台 只 要 求 用 户 在 遵守 相应 服务 条 款 的 前 提 下 使 用 或 引用 数据 , 如 北京 大 学 和 
复旦 大 学 要 求 遵循 DataVerse 的 引用 标准 ， 同 时 在 引用 数据 时 要 求 标注 出 处 。 除 
去 共有 的 GB/T 7714-2015 格式 , 4 个 平台 提供 的 数据 引用 方式 有 所 差别 ， 如 北京 
大 学 提供 EndNote 格式 、RIS 格式 和 BibTeX 格式 ， 复 旦 大 学 提供 EndNote 格式 
和 RIS 格式 ; 但 浙江 大 学 和 华东 师范 大 学 仅 提 供 GB/T 7714-2015 格式 ; 
CnOpnData 没有 提供 明确 的 数据 引用 方式 ,也 并 未 要 求 用 户 在 引用 数据 时 标记 出 
处 和 遵循 服务 条 款 。 


4.4.2 数据 关联 


北京 大 学 、 复 旦 大 学 、 和 浙江 大 学 平台 所 提供 的 (元 ) 数据 关联 的 内 容 较为 


单一 ， 均 只 以 超 链接 的 方式 关联 了 数据 集 的 相关 数据 ; 华东 师范 大 学 平台 提供 由 
数据 集 创 造 者 创建 关联 导航 , 可 以 把 其 他 用 户 创 建 的 专题 链接 到 本 地 创建 的 专题 
导航 上 , 看 起 来 就 像 本 地 创建 的 专题 一 样 , 但 点 击 专题 是 跳 转 至 其 他 账户 创建 的 
页 面 上 浏览 相关 专题 内 容 ，CnOpenData 平台 则 将 数据 集 按 类 型 进行 分 类 归纳 ， 
因此 在 一 个 数据 集中 除了 关联 至 本 身 数据 集 的 相关 数据 , 还 关联 了 同一 类 型 的 相 
关外 部 数据 集 ， 另 外 部 分 数据 集 还 关联 了 相关 文献 。 


4.4.3 文件 格式 


文件 格式 会 影响 当前 和 未 来 软件 “导入 ”数据 集 的 能 力 ， 进 而 影响 数据 集 的 
解释 和 理解 。 

首先 是 数据 提供 者 上 传 数据 文件 格式 方面 , 北京 大 学 平台 虽 有 在 使 用 手册 中 
提 及 上 传 文件 的 信息 , 但 并 未 提 及 详细 规定 的 文件 格式 ， 同 时 普通 用 户 在 未 加 入 
数据 集 用 户 组 之 前 并 不 能 上 传 数据 ; 复旦 大 学 并 未 规定 上 传 文件 的 格式 , 支持 不 
同 格 式 的 文件 ;华东 师范 大 学 在 使 用 手册 中 规定 了 上 传 文件 的 格式 ， 其 中 包括 
Tabular Data、Network Data 和 Big Data 三 大 类 ， 其 中 Tabular Data 分 为 SPSS 文 


fF (sav or por), STATA 文件 (.dta)、RData 文件 ，Network 文件 就 是 GraphML 
文件 。SPSS)、STAT)、CSV、TAB、GraphML 文件 将 处 理 为 可 设置 子 集 的 数据 
文件 ， 它 们 可 以 用 数据 资源 平台 分 析 工 具 进行 在 线 分 析 。 当 选择 CSV 
(Character-separated Values) 数据 类 型 时 ， 首 先 需 要 SPSS 控制 卡 文件 。 当 选择 
TAB (Tab-delimited) 数据 类 型 时 ， 首 先 需 要 DDI 控制 卡 文 件 。BigData 类 型 
的 文件 涉及 到 大 数据 引擎 ， 需 要 结合 大 数据 引擎 平台 进行 设置 ; 浙江 大 学 并 未 提 
及 上 传 文件 的 格式 ; CnOpenDataData 没有 上 传 文件 的 功能 ， 因 此 也 没有 上 传 文 
件 格式 的 规定 。 

在 数据 使 用 者 下 载 数据 文件 格式 方面 ， 从 八 个 平台 的 数据 集 可 以 看 出 ， 只 有 
小 部 分 数据 集 提 供 平 台 要 求 上 传 时 的 特殊 格式 , 大 部 分 数据 集 以 一 些 常 见 的 格式 
呈现 ， 比 如 纯 文 本 (txt)、 数 据 表 (csv、xlsx)、 文本 文档 (pdf. docx), AH (jpg、 
png) 和 程序 文件 json 等 。 因 为 每 个 平台 的 每 个 数据 集 提供 的 数据 集 数据 文件 格 
式 都 不 是 固定 的 ， 因 此 对 于 某 个 平台 存在 多 种 格式 的 情况 ， 采 取 “ 就 高 不 就 低 ” 
的 原则 ， 即 将 开放 度 最 高 的 数据 格式 级 别 作为 整个 平台 的 评分 对 象 。 


45 可 重用 性 


可 重用 是 FAIR 原则 的 目标 ， 为 了 实现 这 一 目标 ， 需 要 充分 描述 数据 ， 并 在 
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4-4 所 示 。 
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表 4-4 可 重用 性 维度 各 指标 评估 结果 


月 保 数 据 的 可 重用 性 。 可 重用 性 的 各 指标 评估 结果 如 


Table 4-4 Evaluation results of reusable dimension indicators 


平台 北京 大 学 “| 复旦 大 学 | 华东 师范 大 学 | 浙江 大 学 | CnOpenData 
数据 许可 
许可 声明 | 许可 声明 
y J yj J x 
明确 性 “| 是 否 明确 
cay aa 
"UM CCO CCO 自 定义 许可 = = 
" 标准 
许可 声明 — — — : 
EN 遵循 标准 的 | 遵循 标准 | 未 遵循 标准 的 | 无 重用 许可 | 无 重用 许可 
Ow") 许可 类 型 | 机 器 可 读 许 | 的 机 器 可 | ”文本 许可 声明 明 
可 读 许可 
是 否 存在 
访问 受 限 J J J J J 
数据 
限制 声明 
J J y 4 J 
限制 声明 58 
明确 性 有 限制 重 
有 限制 重 ) 限制 重用 的 | 有 限制 重用 
maae | TOO | yk, n ek GE 
限制 程度 | 、 ” | 集 , 说 明 限 | ~ ects, ce | 数据 集 , 说 明 限 
说 明 限制 原 | 、 | 限制 原因 或 期 | 说 明 限 制 原 | 
、 制 原因 或 制 原因 或 期 限 
为 或 期 限 限 因 或 期 限 
期 限 
数据 溯源 
是 否 有 数据 溯源 信息 v v v F x 
机 器 可 读 溯 | 文本 溯源 文本 溯源 格 | 没有 描述 溯源 
数据 溯源 信息 标准 性 文本 溯源 格式 
EIUS Eua ees s 本 济源 格 e 


4.5 


(EVER SUE AG 


.1 许可 


如 果 数 据 使 用 规定 不 够 明确 ， 将 会 限制 组 织 和 个 人 对 数据 进行 再 利用 。 


性 方面 ，5 个 平台 中 有 4 个 平台 声明 数据 使 用 许可 协议 , 分 别 是 


北京 大 学 、 复 旦 大 学 、 华 东 师 范 大 学 和 浙江 大 学 ，CnO0penData 平 台 未 作 数 据 重 用 


规定 。 


在 许可 声明 标准 性 方面 , 有 2 个 平台 采用 遵循 标准 的 机 器 可 读 许可 标准 ， 仪 
基于 DataVerse 的 北京 大 学 和 复旦 大 学 遵循 CCO 协议 ， 即 "公共 领域 页 献 宣 告 "; 2 
个 平台 未 使 用 标准 许可 协议 , 华东 师范 大 学 使 用 自己 定义 的 数据 使 用 协议 , 且 内 
容 较为 全 面 且 详细 ， 浙 江 大 学 则 仅 有 版 权 及 所 有 权 声 明 ; CnOpenDataData 平台 
未 声明 。 

在 限制 声明 明确 性 方面 ，5 个 平台 均 声 明 未 开放 的 数据 集 及 其 受 限 情形 并 说 
明了 限制 原因 ， 其 中 北京 大 学 、 复 旦 大 学 、 华 东 师 范 大 学 和 浙江 大 学 的 数据 集 限 
制 原因 都 是 数据 提交 者 对 数据 集 设置 而 导致 的 , 而 具体 权限 分 布 则 在 上 文 可 访问 
性 均 有 提交 ; CnOpenData 由 于 并 未 有 上 传 数据 的 选项 , 因此 其 数据 受 限 的 原因 
是 平台 会 对 个 性 化 的 数据 定制 服务 数据 以 及 部 分 数据 量 庞大 以 及 较 高 获取 难度 
的 数据 采取 收费 行为 ， 需 付费 成 VIP 才 可 使 用 。 


— 


4.5.2 数据 溯源 


数据 溯源 为 数据 质量 的 评估 提供 了 解决 思路 , 数据 渊源 信息 主要 来 自 于 数据 
上 传 者 所 发 布 的 元 数据 。 数 据 渊源 信息 一 般 包括 数据 发 布 和 更 新 时 间 、 数 据 提交 
者 和 联系 信息 ， 以 及 数据 集 访问 地 址 、 出 处 、 版 本 、 元 数据 标准 等 。5 个 平台 中 
有 4 个 平台 有 较为 完善 的 数据 溯源 信息 , 其 中 做 得 最 好 的 平台 是 北京 大 学 , X 
用 UNF 数字 指纹 管理 数据 集 和 文件 版 本 ,支持 历史 数据 引证 ， 使 用 标准 的 机 器 
可 读 济源 格式 。 除 此 之 外 ， 男 外 3 个 平台 虽 有 较为 全 面 的 数据 渊源 信息 ， 提 供 历 
史 版 本 的 比较 等 功能 ,但 均 未 声明 其 使 用 标准 且 均 只 通过 网 页 文本 描述 溯源 ,可 
见 机 器 可 读 格 式 的 调 源 标准 未 得 到 充分 应 用 ， CnOpenDataData 则 没有 数据 溯源 


信息 。 


4.6 研究 结论 


数据 的 发 现 是 数据 利用 的 前 提 。 从 Johnson Masinde 的 研究 B4 中 发 现 高 校 图 
书馆 数据 开放 平台 通过 规范 数据 标识 符 的 使 用 、 遵 循 相应 的 元 数据 标准 和 优化 数 
据 的 检索 来 支持 数据 的 发 现 , 这 一 点 在 国内 平台 中 也 得 到 印证 。 但 相 较 于 国外 平 
台 , 国内 平台 仪 部 分 使 用 国际 规范 元 数据 标准 , 与 国际 成 熟 的 元 数据 标准 存在 一 


定 差 距 ,不 利于 数据 的 长 期 有 效 访问 ， 同 时 各 平台 间 的 元 数据 标准 也 不 统一 且 不 
完善 ; 国外 平台 广泛 注册 于 国际 认可 的 通用 仓储 ,扩大 了 平台 的 影响 力 ， 易于 用 
户 发 现 数据 ， 国 内 平台 在 此 方面 有 待 加 强 。 

数据 的 可 访问 程度 决定 了 数据 可 利用 的 范围 。 总体 而 言 , 用 户 可 以 浏览 并 访 
问 免费 开放 的 图 书馆 数据 开放 平台 中 的 大 部 分 数据 ， 调 研 的 大 部 分 平台 只 提供 
HTTP 协议 访问 , 在 访问 协议 上 缺乏 多 样 性 , 给 用 户 提 供 的 数据 入 口 数量 也 很 少 ; 
在 数据 的 下 载 获取 方面 , 国内 平台 都 设置 了 相关 授权 机 制 来 赋予 用 户 相应 的 访问 
权利 ， 有 部 分 平台 可 以 直接 下 载 数据 ， 而 有 些 平台 需要 注册 后 才能 下 载 数 据 ， 茶 
种 程度 上 给 用 户 带 来 了 不 便 ; 在 数据 的 存储 方案 上 , 多 数 平台 并 未 公开 说 明 数 据 
存储 机 制 ， 数 据 的 长 期 稳定 保存 需要 进一步 的 保障 。 

可 互 操作 涉及 语义 与 技术 层面 的 数据 系统 建设 理念 。 在 数据 引用 方面 , 大 部 
分 样本 平台 都 有 规范 上 且 多 样 的 引用 方式 , 但 在 规定 数据 引用 时 的 使 用 条 球 方面 还 
有 所 欠缺 ;在 数据 的 标准 化 表达 方面 , 国内 平台 尚未 采用 语义 化 语言 来 表示 数据 ， 
在 平台 互 操作 这 一 方面 还 有 竺 提升; 在 技术 层面 ,， 互 操作 意味 着 不 同系 统 间 数据 
资源 的 互联 ， 因此, 在 数据 资源 中 嵌入 相关 资源 的 指向 链接 是 实现 系统 间 数 据 交 
互 的 渠道 ， 在 这 一 方面 ， 国 内 乎 台 的 建设 普遍 优 于 国外 平台 。 

可 重用 能 够 实现 数据 的 反复 利用 ， 降 低 科 学 研究 的 成 本 ， 实 现 数据 价值 的 最 
大 化 。 明 确 的 数据 使 用 许可 是 保障 数据 可 重用 的 关键 ， 在 这 一 方面 ， 国 外 平台 已 
经 颁布 了 官方 的 数据 开放 使 用 许可 标准 ， 明 晰 了 数据 共享 方式 、 范 围 和 责 权 ， 故 
国外 平台 普遍 使 用 通用 的 机 器 可 读 许可 声明 , 而 国内 目前 仅 少数 基于 外 国 数据 存 
储 库 建立 的 平台 在 使 用 机 器 可 读 的 许可 声明 ; 国外 平台 已 采用 溯源 元 数据 标准 并 
纳入 元 数据 ， 而 国内 平台 在 济源 元 数据 的 提供 与 建设 上 仍 处 于 起 步 阶段 。 


5 基于 FAIR 原则 的 我 国 高 校 图 书馆 数据 开平 台 的 改 
进 建议 Suggestion for China academic libraries’ open 


data repositories based on FAIR principle 


5.1 明确 自身 定位 ， 发 挥 核心 优势 


高 校 图 书馆 数据 开放 平台 的 核心 优势 在 于 高 质量 的 科研 数据 资源 ,科研 开放 
数据 不 仅 是 一 种 重要 的 数据 资料 , 也 是 促进 社会 生产 力 发 展 的 主要 推动 力 。 首 先 ， 
高 校 图 书馆 应 充分 利用 其 丰富 的 数据 资源 , 将 数据 资源 有 效 组 织 , 确保 科研 数据 
能 够 被 发 现 利 用 ， 其 次 ,高校 图 书馆 应 与 其 他 组 织 合 作 ， 通 过 开放 合作 ， 搭 建 科 
研 数 据 与 产业 需求 之 间 的 桥梁 ,促进 跨 领域 、 跨 学 科 的 知识 和 技术 交流 ， 从 而 实 
现 科研 数据 从 理论 探索 向 实际 应 用 的 关键 转化 。 通过 整合 、 加 工 和 优化 这 些 数据 
资源 , 高 校 图 书馆 将 有 力 推动 科研 数据 成 为 促进 科技 创新 和 产业 升级 的 核心 生产 
要 素 ， 助 推 新 质 生 产 力 的 形成 发 展 。 


52 提高 数据 质量 ， 推 动 生产 要 素 组 合 配置 


新 质 生 产 力 是 以 人 工 智能 、 大 数据 分 析 等 为 重要 标志 的 技术 创新 ,其 主要 驱 
动力 是 促进 不 同 产业 之 间 的 互联 互通 和 交叉 创新 ， 从 而 形成 新 的 业态 和 模式 091。 
其 中 数据 要 素 等 新 兴 生 产 要 素 与 传统 生产 要 素 的 结合 赋 能 能 够 提高 全 要 素 生 产 
效率 。 高 校 图 书馆 应 该 加 强 数据 质量 监管 力度 ， 建 立 数据 质量 管理 制度 ， 确 保 数 
据 质 量 可 量化 。 此 外 ,高 校 图 书馆 要 使 用 国际 通用 的 永久 性 标识 符 如 DOI. PID, 
HDL 等 苦 代 本 地 标识 符 ， 提 高 数据 的 唯一 性 以 及 规范 性 。 同 时 国内 数据 开放 平 
台 还 应 在 多 个 外 部 可 搜索 资源 索引 处 注册 , 与 众多 数据 仓储 库 通过 数据 条 目 建立 
链接 , 以 便 人 和 机 器 探索 数据 网 , 即 以 关联 数据 的 发 布 方式 提高 数据 的 可 发 现 性 。 
最 终 以 高 质量 科研 数据 要 素 做 基地 ,融入 到 各 生产 要 素 中 , 优化 生产 过 程 和 效能 。 


ANS 
L 


53 互通 平台 数据 ， 实 现 链 网 联动 


我 国 不 同 地 区 开放 数据 平台 的 数据 存在 字段 数量 、 名 称 、 类 型 等 “ 异 构 ” 问 
fl, TOR AEE BK, 数据 互 操 作 性 不 强 RI。 关 键 的 解决 办 法 是 确保 不 同 高 校 图 
书馆 数据 开放 平台 之 间 的 互 操 作 性 。 各 平台 应 复 用 已 有 国际 通用 的 元 数据 标准 ， 
对 数据 格式 进行 调整 与 协调 , 以 机 器 可 理解 的 格式 发 布 数据 , 促进 数据 的 自动 搜 
A, 增强 异 构 数据 的 互 操 作 性 ， 以 此 提高 数据 在 不 同 平台 异 构 系 统 的 互通 性 。 同 
时 ,在 数据 关联 方面 ， 通 过 链接 到 数据 集 的 历史 版 本 、 相 关 数 据 集 或 资源 (如 出 
版 物 、 存 储 库 、 平 台 等 )， 可 以 提高 同一 学 科 、 同 一 地 区 的 数据 互通 性 ， 以 此 打 
破 数 据 孤岛 。 进 而 在 此 基础 上 ， 促 进 科研 数据 的 国际 共享 。 


5.4 规范 数据 标准 ， 优 化 用 户 访问 体验 


根据 评估 结果 , 国内 高 校 图 书馆 数据 开放 平台 在 可 访问 性 这 一 方面 存在 诸多 
欠缺 。 保 证 用 户 访 问 体验 可 以 吸引 不 同 用 户 人 群 访问 数据 ， 挖 抉 数 据 价 值 ， 实 现 
数据 多 样 化 利用 。 因 而 国内 高 校 图 书馆 数据 开放 平台 需 适当 开放 数据 访问 权限 ， 
可 以 采取 用 户 分 级 政策 , 针对 不 同类 型 的 用 户 设置 不 同 的 访问 权限 。 同 时 还 需 为 
用 户 提 供 多 个 访问 途径 ， 以 HTTP 通信 协议 为 基础 ， 配 合 使 用 UR 来 定位 与 访 
问 资 源 ， 使 用 通用 API 接口 作为 基本 工具 开放 获取 部 分 数据 与 元 数据 ， 避 免 出 
现 单一 访问 途径 。 此 外 ,平台 应 声明 元 数据 的 长 期 存储 机 制 和 方案 ， 确 保 数据 在 
可 靠 的 存储 库 中 进行 稳定 保存 和 安全 传输 , 保证 数据 的 访问 不 受 时 间 限 制 , 避免 
因 意 外 丢失 而 造成 数据 无 法 访问 等 情况 而 导致 用 户 使 用 体验 下 降 。 


5.5 转化 数据 效能 ， 促 进 技术 创新 


高 校 图 书馆 数据 开放 平台 在 统一 数据 标准 、 互 通 数 据 资源 的 基础 上 , 可 以 进 
一 步 创新 数据 服务 模式 , 例如 为 不 同 专业 的 科研 人 员 定 制 个 性 化 服务 , 为 其 提供 
专 而 精 的 科研 数据 。 其 次 高 校 图 书馆 也 可 以 开展 产 学 研 合作 交流 ， 与 企业 、 政 府 
等 机 构 合作 ， 将 数据 资源 与 生产 需求 相对 接 ， 促 进 技 术 创 新 和 产业 发 展 ; 支持 创 
新 创业 项 目 ， 利 用 数据 开放 和 平台 提供 的 技术 和 资源 ， 帮 助 孵化 新 技术 和 新 产品 。 
最 后 也 可 以 建立 激励 机 制 , 误 励 用 户 利用 开放 平台 进行 科研 创作 ,为 数据 页 献 者 


和 创新 人 员 提 供 奖励 和 资助 ， 以 鼓励 创新 活动 甘 勃 发 展 。 通 过 采取 多 样 化 手段 ， 
促进 科研 数据 的 充分 利用 并 转化 为 实际 效能 ， 不 断 推 动 科技 创新 。 
6 结语 与 展望 Conclusion and Prospect 

本 文 借鉴 国外 FAIR 原则 应 用 评估 指标 构建 了 面向 我 国 高 校 图 书馆 数据 开 
BCE AH FAIR 应 用 评估 框架 。 基于 对 我 国 5 个 样本 平台 FAIR 应 用 情况 的 调研 
分 析 ， 从 F、A、I、R 4 个 维度 分 别提 出 了 FAIR 原则 的 应 用 建议 。 本 研究 限于 
调研 样本 平台 数量 和 调研 时 间 ， 调 研 结果 对 反映 我 国 高校 图 书馆 数据 开放 平台 
FAIR 应 用 的 整体 情况 存在 一 定局 限 。 因 此 ， 本 研究 希望 通过 构建 的 高 校 图 书馆 
数据 开放 平台 的 FAIR 应 用 评估 框架 及 基于 调研 结果 提出 的 FAIR 应 用 建议 能 为 
对 我 国 推进 高 校 图 书馆 开放 数据 管理 、 特 别 是 FAIR 原则 的 有 具体 应 用 做 出 贡献 ， 
进一步 提高 高 校 图 书馆 开放 数据 的 开放 重用 水 平 , 推动 我 国 高 校 图 书馆 的 数据 开 
放 事业 发 展 。 
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Application Evaluation and Analysis of the FAIR Principle 
in Open Data Repositories of Academic Libraries in China 
Zhang Sufang Liang Rui He Guoyu 
South China Normal University Guangzhou 510006 


Abstract: [Purpose/Significance] FAIR principle is a data management principle 
that guarantees the identification, traceability, sharing and reuse of scientific data, and 
it is of great significance for the improvement of the academic repositories quality by 
evaluating the application of the FAIR principle in the open data repositories for 
academic libraries in China. [Methods/Process] This study constructs a FAIR 
assessment framework applicable to China's open data repositories of academic 
libraries based on the existing FAIR principle framework through network research, 
and evaluates and analyzes China's academic libraries’ open data repositories in terms 
of the four dimensions, namely, finable, accessible, interoperable, and reusable. 
[Results/Conclusions] Based on the above research, this study puts forward 
suggestions for improving the construction of academic libraries’ open data 
repositories from the aspects of clarifying the repositories’ own positioning, 
improving data quality, interoperability of platform data, standardizing data standards, 
and transforming data effectiveness. 
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